TTS. Требования к записи речи для синтеза голоса

Оцените материал
(1 Голосовать)

TTS. Требования к записи речи для синтеза голоса

Требования по качеству звука обычно очень высоки. Приведем общие характеристики, применяемые при озвучивании текста для голосового синтеза.

Основные характеристики записи голоса для TTS

Параметры оцифровки (звукозаписи), определяющие качество фиксации звука

1. Частота дискретизации (влияет на точность фиксации звука): 41000Гц, 48000Гц, 88000Гц, 88000Гц и т.д.

2. Разрядность (влияет на снижение уровня шума): 16 бит, 24 бит, 32 бит.

3. Количество каналов: моно.

4. Звуковой формат: WAVE.

5. Фоновый шум, который присутствует во время записи голоса, должен быть минимальным. Есть два типа фонового шума:

Шум звукового тракта

- Шум, который создают: звуковая карта, т.е., ее АЦП (Аналого Цифровой Преобразователь), микрофонный предусилитель, наводки на коммутацию и звуковое оборудование от внешних электрических устройств, таких как мобильная связь, «Bluetooth» и «Wi-Fi» сигналы, мобильная связь, микроволновые печи. А так же абсолютно любые бытовые приборы, такие как холодильники, электробритвы и т.п., и шум электрической сети, в который могут попасть даже те помехи, которые контролировать невозможно, например, в электрическом сигнале могут оказаться следы работы пылесоса у соседей. Всё это суммируется и создаёт шум звукового тракта.

Шум через микрофон

- Шум, который попадает в запись через микрофон - работающий системный блок, система притока воздуха в студию, окружающая среда, находящаяся вне пределов звукозаписывающей комнаты (офис, соседи, улица и т.д.). Всё что звучит в пространстве, улавливается микрофоном и накладывается на шум звукового тракта.

6. Громкость речи. Громкость речи и шум имеют прямое отношение друг к другу. Они тесно взаимосвязаны. По сути, технически, громкость речи и шум - одно и тоже, т.е. с точки зрения преобразования звука из аналога в цифру и наоборот, природа шума, как и природа речи абсолютно идентичны. И речь, и шум - это звук, который техника оцифровывает (записывает). Это человек способен отличить, что есть шум, а что есть речь.

Так вот, одна из задач, которые ставятся перед записью речи - чтобы разница между уровнями шума и голоса была как можно больше. Обычно к записи голоса для TTS предъявляются требования выдерживания уровня громкости речи в диапазоне значений -5db с кратковременным максимальным значением -1db и с кратковременными минимальным значением -15db. А уровень шума не более -60db, т.е., чем больше отрицательное значение (получается снижение уровня шума), тем лучше.

Вот как в звуковом редакторе отображается волна с нормальным уровнем голоса (соответствие определяется по шкале слева):

Изображение звуковой волны с нормальным уровнем голоса при записи речи для синтеза голоса в TTS

Звукоизвлечение в TTS (произношение для голосового синтеза)

Читая тексты, предназначенные для TTS, обнаруживаются фразы, которые могут показаться некорректно сформулированными. Не стоит обращать внимание на такие фрагменты, ведь по существу, эти фразы не будут использоваться в таком виде, т.е. все фразы расщепятся на «атомы» (фонемы) и из этих фонем потом будет составляться новый текст. Поэтому, главное, на что следует обращать внимание:

1. Правильная артикуляция без ошибок в прочтении и расстановке пауз.

2. Естественная речь без придыханий и утрирований.

3. Отсутствие щелчков из-за слюны

Появление щелчков – неприятный артефакт, который может напрочь испортить запись звука для TTS. Полость рта при чтении текста не должна быть пересушена, это вредно для голосовых связок, но и не должна быть слишком влажной. Щелчки образуются исключительно в полости рта при соприкосновении сухой слизистой со слюной. В идеале – связки должны быть более влажными, а полость рта менее.

Без достаточного опыта работы со звуком щелчки достаточно сложно услышать, ведь они коротки, часто негромки и всегда маскируются под полезный сигнал речи. Но мы имеем достаточный опыт прослушивания записи дикторского голоса. Достаточный для того, чтобы подловить этих мелких «выскочек»!

Щелчки от слюны, возникающие при смыкании сухой слизистой со слюной на языке, могут появляться в паузах между словами и в тихих фрагментах между слогами. Это несложный случай для избавления от них на этапе редактирования записанного звука.

Гораздо сложнее удалять щелчки, когда они маскируются под свистящими и шипящими согласными и тем более, на фоне гласных.

При анализе звуковой волны с наличием щелчка от слюны, можно заметить, что щелчок на гласном звуке отображен как тёмный фрагмент на светлом. Посмотрите, на рисунке фрагмент с появлением щелчка от слюны:

фрагмент с появлением щелчка от слюны на звуковой волне при записи речи для TTS

Удаление таких фрагментов появления щелчка на фоне гласного звука потребует осуществить небольшую реставрацию звука.

К слову о реставрации – мы реставрируем звук не только от щелчков, но и от самых разных артефактов. Пожалуйста, коль скоро вы пожелаете заказать реставрацию звука и захотите изучить это тему более подробно, почитайте описание услуги «Реставрация звука».

4. Не допускать резких потоков воздушной струи от смычно взрывных согласных. Для решения этого момента мы делаем следующее:

  • Используем поп-фильтр (идеальное решение, в принципе, обязательное)
  • Контролируем смычно-взрывные согласные при произношении
  • Чуточку отдаляемся от микрофона на таких фрагментах.

Тут стоит отметить два момента.

Первое:

Поскольку приближение/отдаление относительно микрофона при записи текстов для TTS в принципе недопустимо (что главным образом относится к записи фрагментов с целыми словами и предложениями), отдаление будет применено лишь на критическом фрагменте, без воздействия на остальные части предложения.

И второе:

Если при установленном поп-фильтре получается слишком много искажений от произношения смычно-взрывных согласных, это важный сигнал, что микрофон установлен слишком близко (поп-фильтр не справляется с блокировкой воздушной струи). Мы расположимся чуть подальше от микрофона и выверим количество случающихся артефактов еще до начала записи всего текста (т.к. такая смена расположения микрофона на любом этапе записи текста для TTS критически недопустима).

И да, это палка о двух концах:

С одной стороны, при близком расположении к микрофону, улучшается параметр «сигнал/шум», т.е., громкость речи высока, а громкость фонового шума низка, но при этом возникает слишком много артефактов от произношения смычно-взрывных и более того, могут возникнуть и другие нежелательные изменения в звучании.

И с другой стороны, при отдалении от микрофона, количество искажений от смычно-взрывных на порядок снижается, но ухудшается показатель «сигнал/шум».

Поэтому, если есть хороший запас по отношению полезного сигнала к шуму мы заранее просто отдалимся от микрофона. Не зря улучшение показателя «сигнал/шум» добивается любая студия звукозаписи. Выверим все параметры, зафиксируем оптимальное расположение, и приступим к записи текста для TTS.

В результате бесконтрольного произношения смычно-взрывных согласных, воздушная струя, попадая в микрофон, искажает звук, как показано на рисунке:

Воздушная струя, попадая в микрофон, искажает звук - анализ звуковой волны для синтеза голоса

5. Ни в коем случае недопустимо ограничение пиков (clipping peak/cut ridge):

недопустимо ограничение пиков (clipping peak/cut ridge) при записи голоса для синтеза речи в TTS

Для недопущения артефактов отсечения звуковой волны, мы будем придерживаться ровного звучания с контролем шипящих и свистящих согласных, ведь именно они могут приводить к таким искажениям. Если исследовать звуковую волну с ровным звучанием, но при этом с обилием отсечений, то можно заметить, что отсечения происходят именно на свистящих и шипящих согласных и, конечно же, на смычно-взрывных, с которыми впрочем, мы уточнили способ, как будем бороться. Такой же способ действует и в отношении артефактов ограничения волны.

Если при условии использования поп-фильтра и при достаточном отдалении от микрофона у нас всё равно имеется ограничение волны, мы просто снизим уровень входящего сигнала на предусилителе микрофона до приемлемого уровня. Это не только приведет уровень записи голоса к приемлемому знаменателю, но и значительно снизит уровень шума звукового тракта, что даст хороший показатель «сигнал/шум».

И мы тут же попросим вас поздравить нас, ведь это будет означать, что у нас просто отличные студийные условия записи речи!

6. Должны отсутствовать фоновые помехи и различного рода шумы, такие как: шуршание одежды, посторонние голоса, удары о стойку микрофона, звуки улицы и т.д.

7. Не следует акцентировать какие-либо отдельные слова, как это делается при прочтении обычных текстов.

8. Интенсивность речи, динамика и темп должны быть едиными от фразы к фразе, т.е. не должно быть никаких различий, скажем, между первой фразой и сотой и т.п.

9. Расстояние до микрофона должно быть всегда одинаковым. При записи обычных текстов небольшие приближения/отдаления от микрофона придают звуку некоторое разнообразие, интересность и равномерность уровня громкости речи, а так же, это может передавать драматичность чтения, к примеру, на повышении динамики речи от шепота к крику можно отдалить голову и отвести в сторону и наоборот. Однако в случае с TTS это недопустимо – нельзя ни отдаляться от микрофона, ни приближаться к нему, ни поворачивать голову в стороны!

10. Запись для TTS невозможно сделать, что называется в один заход. Понадобится много сессий записи, каждая из которых должна производиться в абсолютно идентичных условиях – никаких изменений в звучании голоса (тональность, темп, тембр), никаких изменений в размещении микрофона, никаких изменений в посадке перед микрофоном, никаких изменений в настройке оборудования (коммутация, настройки микрофонного предусилителя и самого микрофона) и т.д.

11. Фразы обычно читаются, согласно знакам препинания, но не следует слишком интонировать, например, на таких экспрессивных знаках, как знак вопроса или восклицательный знак. Допустимо лишь весьма легкое обозначение интонацией.

Примеры озвучивания для голосовых движков:

download
W_3_SINTEZ_1
PLAY
PAUSE
STOP

download
M_1_SINTEZ_1
PLAY
PAUSE
STOP

download
W_4_SINTEZ_1
PLAY
PAUSE
STOP

download
M_1_SINTEZ_2
PLAY
PAUSE
STOP

Пожалуйста, почитайте об услуге озвучивания голосовых баз для синтеза голоса

С наилучшими пожеланиями не прикусить язык!

И спасибо, если поделитесь статьей.

 

Дополнительная информация

  • Реклама:

Прочитано 776 раз

Популярное в блоге

  • Диктор! Знакомство с профессией

    Диктор! Знакомство с профессией

    Гнездование дикторов, их житие-бытие. Кто они, эти загадочные, мистические существа с языком, к которому проложена выделенная полоса прямо из мозга, который ко всему прочему работает не на 3, как у всех, а на 97 процентов. Ну, по крайней мере, наверное, так о них думают заказчики. К такому выводу приходишь, когда поработаешь с ними длительное время и станешь свидетелем интересных историй и перлов.

  • Озвучивание голосового приветствия

    Варианты услуги:

    А) Только начитка за 500р.
    Б) Монтаж без музыки - 800р.
    В) С вашей музыкой - 1100р.
    Г) С нашей музыкой - 1400р.
  • Голосовые приветствия мужскими голосами
  • Вот музыкальная подложка, а вот монтажёр!

    Рекламная музыка – коммерческая априори!Часто музыкальная композиция называется как музыкальная подложка.

    Такое сухое и лаконичное название...

    А возможно она была создана художником в результате сокровенного творческого вдохновения.

     

     

     

  • Как заработать на создании аудио книг: первые шаги и условия развития

    Как заработать на создании аудиокниг: первые шаги и условия развития

    Аудиокниги приобретают всё большую популярность и пользуются особым спросом, а потому бизнес, основанный на создании аудио-формата книг, может дать неплохой доход при раскрутке. Что же надо сделать, чтобы аудиокниги, создаваемые вами, приносили доход? Об этом в данной статье.

  • Странный гул по ночам в Санкт-Петербурге или «Зловещий контрапункт»

    Странный гул по ночам в Санкт-Петербурге или «Зловещий контрапункт»

    Всем известно, что ночью город замирает, в нем становится тихо и спокойно, даже до звона в ушах. Это касается не только маленьких городов, но, как ни странно и больших мегаполисов. Особенно в спальных районах большого города даже днем может стоять звуковая тишь. Таким районом для меня считается и Московский район (метро звездная). Несмотря на близость расположения Московского и Пулковского шоссе.

    Обычно ни трассы, ни поездов, ни самолетов не слышно даже в днем. Днем есть обычный фон города – детвора, птички, изредка автомобили, однако ночью всё стихает. Но не в ночь с 20-го на 21 Мая…

  • Коммерческое предложение на закадровое озвучивание текстов на русском языке

     

    Коммерческое предложение на закадровое озвучивание текстов на русском языкеЗакажите закадровое озвучивание текста для видео. Недорого, качественно, быстро!

  • Голосовые приветствия женскими голосами

    Вы можете здесь прослушивать примеры голосовых приветствий в озвучивании женскими голосами. Голосовые приветствия вы можете заказать в нашей студии звукозаписи.

  • Человек (?), который профессионально озвучивает

    Человек (?), который профессионально озвучивает

    Как часто ты смотришь фильмы, сериалы или другие видео, которые переведены с иностранного языка? А задумывались ли вы, как это делается? Звонят актёрам и просят их перезаписать своим голосом на русском? Или же ищут пародистов, чтобы они специально делали похожие голоса?

    А может это делает вовсе не человек?

    Нет, конечно же, нет (и я говорю это не из-за озвучек от Володарского). Просто сам процесс происходит по-другому. И сегодня мы вам об этом расскажем. Усаживайтесь поудобнее.

  • Сделать озвучку текста - территория использования

    Сделать озвучку текста - территория использования

    У каждой услуги есть определённая целевая сфера, потребительская среда, территория использования. Вот и услуга озвучивания текста имеет свою основную территорию. Однако, в связи с ростом смежных отраслей, расширяется и территория спроса, читай потребительская среда. Так давайте же рассмотрим эту интересную тему более подробно.

 

Новинки в блоге

Создание аудио и видео рекламы. Работа как с отдельными элементами рекламы (текст, голос музыка, изображения, видео...) так и "Под ключ".

Читать

Акция на музыку

Ценовая акция на музыку для коммерческого использования